In recent years, denoising diffusion models have demonstrated outstanding image generation performance. The information on natural images captured by these models is useful for many image reconstruction applications, where the task is to restore a clean image from its degraded observations. In this work, we propose a conditional sampling scheme that exploits the prior learned by diffusion models while retaining agreement with the observations. We then combine it with a novel approach for adapting pretrained diffusion denoising networks to their input. We examine two adaption strategies: the first uses only the degraded image, while the second, which we advocate, is performed using images that are ``nearest neighbors'' of the degraded image, retrieved from a diverse dataset using an off-the-shelf visual-language model. To evaluate our method, we test it on two state-of-the-art publicly available diffusion models, Stable Diffusion and Guided Diffusion. We show that our proposed `adaptive diffusion for image reconstruction' (ADIR) approach achieves a significant improvement in the super-resolution, deblurring, and text-based editing tasks.
translated by 谷歌翻译
扩散模型是一类生成模型,与其他生成模型相比,在自然图像数据集训练时,在创建逼真的图像时表现出了出色的性能。我们引入了Dispr,这是一个基于扩散的模型,用于解决从二维(2D)单细胞显微镜图像预测三维(3D)细胞形状的反问题。使用2D显微镜图像作为先验,因此可以根据预测现实的3D形状重建条件。为了在基于功能的单细胞分类任务中展示DIPPR作为数据增强工具的适用性,我们从分组为六个高度不平衡类的单元中提取形态特征。将DISPR预测的功能添加到三个少数类别,将宏F1分数从$ f1_ \ text {macro} = 55.2 \ pm 4.6 \%$ to $ f1_ \%$ to $ f1_ \ text {macro} = 72.2 \ pm 4.9 \%$。由于我们的方法是在这种情况下第一个采用基于扩散的模型的方法,因此我们证明了扩散模型可以应用于3D中的反问题,并且他们学会了从2D显微镜图像中重建具有现实的形态特征的3D形状。
translated by 谷歌翻译
在这项工作中,我们建议内核过滤线性过度参数化(KFLO),其中在训练过程中使用了线性过滤层的线性级联,以提高测试时间的网络性能。我们以内核过滤的方式实施了这一级联反应,从而防止训练有素的建筑变得更加深入。这也允许使用我们的方法几乎与任何网络体系结构一起使用,并在测试时间将过滤层组合到单层中。因此,我们的方法在推断过程中不会增加计算复杂性。我们证明了KFLO在各种网络模型和数据集中的优势在监督学习中。
translated by 谷歌翻译
使用合成数据来训练在现实世界数据上实现良好性能的神经网络是一项重要任务,因为它可以减少对昂贵数据注释的需求。然而,合成和现实世界数据具有域间隙。近年来,已经广泛研究了这种差距,也称为域的适应性。通过直接执行两者之间的适应性来缩小源(合成)和目标数据之间的域间隙是具有挑战性的。在这项工作中,我们提出了一个新颖的两阶段框架,用于改进图像数据上的域适应技术。在第一阶段,我们逐步训练一个多尺度神经网络,以从源域到目标域进行图像翻译。我们将新的转换数据表示为“目标中的源”(SIT)。然后,我们将生成的SIT数据插入任何标准UDA方法的输入。该新数据从所需的目标域缩小了域间隙,这有助于应用UDA进一步缩小差距的方法。我们通过与其他领先的UDA和图像对图像翻译技术进行比较来强调方法的有效性,当时用作SIT发电机。此外,我们通过三种用于语义分割的最先进的UDA方法(HRDA,daformer and proda)在两个UDA任务上,GTA5到CityScapes和Synthia to CityScapes来证明我们的框架的改进。
translated by 谷歌翻译
我们引入DeepMils,一种基于空间的变形技术,由一组位移的控制点引导。我们利用神经网络的力量将底层形状几何形状注入变形参数。我们技术的目标是实现现实和直观的形状变形。我们的方法是在移动最小二乘(MLS)之上的方法,因为它最小化给定控制点位移的加权和。传统上,使用逆距离启发式定义每个控制点对空间中的每个点(即加权函数)的影响。在这项工作中,我们选择通过从单个输入形状训练控制点上的神经网络来学习加权功能,并利用神经网络的先天平滑度。我们的几何感知控制点变形是对表面表示和质量不可知的;它可以应用于点云或网状物,包括非歧管和断开的表面汤。我们表明,我们的技术促进了直观的分段光滑变形,这非常适合制造物体。与现有的表面和基于空间的变形技术相比,我们展示了我们的方法的优点,这两者都是定量和定性的。
translated by 谷歌翻译
来自单个运动模糊图像的视频重建是一个具有挑战性的问题,可以增强现有的相机的能力。最近,几种作品使用传统的成像和深度学习解决了这项任务。然而,由于方向模糊和噪声灵敏度,这种纯粹 - 数字方法本质上是有限的。一些作品提出使用非传统图像传感器解决这些限制,然而,这种传感器非常罕见和昂贵。为了使这些限制具有更简单的方法,我们提出了一种用于视频重建的混合光学 - 数字方法,其仅需要对现有光学系统的简单修改。在图像采集期间,在镜头孔径中使用学习的动态相位编码以对运动轨迹进行编码,该运动轨迹用作视频重建过程的先前信息。使用图像到视频卷积神经网络,所提出的计算相机以各种编码运动模糊图像的各种帧速率产生锐帧帧突发。与现有方法相比,我们使用模拟和现实世界的相机原型表现了优势和改进的性能。
translated by 谷歌翻译
概括跨越不同视觉域的学习表现的能力,例如在真正的照片,剪贴画,绘画和草图之间是人类视觉系统的基本容量。在本文中,不同于利用一些(或全部)源域监控的大多数跨域工作,我们接近一个相对较新的,非常实用的无监督域泛化(UDG)设置在既不源也不在源域中没有培训监督。我们的方法是基于跨域(BRAD)的桥梁​​的自我监督学习 - 辅助桥域附有一组从每个训练域的Brad将视觉(图像到图像)映射保留的一组语义。 BRAD和MAPPAPAPPED(端到端)与对比的自我监督表示模型一起学习(端到端),其用语义对齐每个域将每个域对齐,因此隐含地驱动所有域(见或看不见)语义上彼此对齐。在这项工作中,我们展示了如何使用边缘正则化的布拉德,我们的方法在多个基准和一系列任务中实现了显着的增益,包括UDG,少量UDA和跨多个域数据集的无监督概括(包括指向未经看明域的概念和课程)。
translated by 谷歌翻译
虽然深度神经网络(DNN)在许多真实的任务中实现了出色的性能,但它们非常容易受到对抗的攻击。对抗这种攻击的主要防御是对抗的,一种技术,通过将对抗噪声引入其输入来训练DNN培训以训练为对抗性攻击的技术。此程序是有效的,但必须在培训阶段进行。在这项工作中,我们提出了增强随机森林(ARF),这是一个简单易用的策略,用于在不修改其权重的情况下强化现有的预磨损DNN。对于每个图像,我们通过应用不同颜色,模糊,噪声和几何变换来生成随机测试时间增强。然后我们使用DNN的Logits输出来训练一个简单的随机林来预测真正的类标签。我们的方法在自然图像的分类上最小的妥协,实现了最先进的对抗鲁棒性对白和黑匣子攻击的多样性。我们也针对许多适应性的白盒攻击测试ARF,并在与对抗训练结合时显示出优异的结果。代码可在https://github.com/giladcohen/arf获得。
translated by 谷歌翻译
多个摄像机制造的视频录制的可用性越来越多,为姿势和运动重建方法中的减少和深度歧义提供了新的方法。然而,多视图算法强烈依赖于相机参数;特别地,相机之间的相对介绍。在不受控制的设置中,这种依赖变为一旦转移到动态捕获一次。我们介绍Flex(免费多视图重建),一个端到端的无参数多视图模型。 Flex是无意义的参数,即它不需要任何相机参数,都不是内在的也不是外在的。我们的关键思想是骨架部件和骨长之间的3D角度是不变的相机位置。因此,学习3D旋转和骨长而不是位置允许预测所有相机视图的公共值。我们的网络采用多个视频流,学习通过新型多视图融合层的融合深度特征,并重建单一一致的骨架,其具有时间上相干的关节旋转。我们展示了人类3.6M和KTH多视图足球II数据集的定量和定性结果,以及动态摄像头捕获的合成多人视频流。我们将模型与最先进的方法进行比较,这些方法没有参与参数,并在没有相机参数的情况下显示,我们在获得相机参数可用时获取可比结果的同时优于较大的余量。我们的项目页面上可以使用代码,培训的模型,视频示例和更多材料。
translated by 谷歌翻译
然而,他们的性能在火车时间存在嘈杂的标签存在下降。灵感来自于使用专家建议的学习,其中乘法权重(MW)更新最近被证明是在专家建议中适度的数据损坏的强大,我们建议在神经网络优化期间使用MW进行重新免除示例。我们理论上建立了当与梯度下降一起使用时的方法的收敛性,并证明其在1D案例中的标签噪声的优势。然后,我们通过表明MW在CIFAR-10,CIFAR-100和服装1M上的标签噪声存在下提高神经网络精度来验证我们的调查结果。我们还展示了我们对对抗性鲁棒性的影响。
translated by 谷歌翻译